查看原文
其他

Gemma - 谷歌最新开放模型

renee创业狗 Renee 创业随笔
2024-10-09

Google 最近发布了 Gemma,并公开了其权重信息。

Gemma 是一个 open weight 模型。Open weight 指的是模型的权重(即模型训练完成后的参数)对外开放,用户可以直接使用这些权重来运行模型,进行推理或者微调(fine-tuning),对比其他开源模型,open source 则提供了更广泛的开放性。不仅模型权重是开放的,模型的代码、架构和训练过程也完全开源,用户可以自由访问和修改。

Gemma 可以通过 Vertex AI 或 Google Kubernetes Engine (GKE) 在 Google Cloud 上部署和训练 Gemma,利用文本生成推理和 Transformers 实现。

也可以使用 Google Colab,这是官方提供的代码:

https://colab.research.google.com/github/google/generative-ai-docs/blob/main/site/en/gemma/docs/lora_tuning.ipynb

与其他开放模型相比:

Gemma 提供两种规模:7B 参数和 2B 参数版本。

  • Gemma 7B 是一个非常强大的模型,旨在高效部署和开发,适用于消费级 GPU 和 TPU,在 7B 参数级别的模型中性能可与最佳模型相媲美,包括 Mistral 7B。
  • Gemma 2B 虽然在其大小范围内是一个有趣的模型,适用于 CPU 和设备端应用,但在排行榜上的得分并不如同类最优秀的模型,比如 Phi 2 高。

如果想直接尝试,可以在这里找到:https://huggingface.co/chat?model=google/gemma-7b-it

下面是用 Gemma 模型给我整理的关于 Gemma 性能的答案:

根据 Google 的官方宣布,Gemma 是一个新的大语言模型,能够完成诸如文本摘要、代码翻译和问题解答等任务。以下是对其性能的概述:

亮点:

  • 高准确率:
    • 在各种任务上取得先进的性能,包括文本摘要、代码翻译和问题解答。
    • 比 PaLM 和 Megatron-Turing NLG 等前模型在 T5 和 QNLG 的评测上表现更好。
  • 多模态能力:
    • 可以处理文本、代码和图像,使它适用于各种任务。
    • 可以翻译代码 между Python 和其他编程语言。
  • 无需特定训练:
    • 可以顺利执行任务,不需要大量的训练。
    • 可以更有效地转移任务之间的知识。

挑战:

  • 资源占用:
    • 需要大量的计算资源,可能限制其可访问性。
    • Google 表示正在开发技术以提高其效率。
  • 偏见:
    • 可能从训练数据中继承偏差。
    • Google 致力于通过各种方法减轻偏差,例如使用公平性意识的训练技术。

总体:

Gemma 是一个强大的语言模型,具有令人印象深刻的性能,能够推动许多应用程序的进步。然而,其资源占用和潜在 bias 是需要解决的挑战。

继续滑动看下一个
Renee 创业随笔
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存